14 research outputs found

    Large Language Models Only Pass Primary School Exams in Indonesia: A Comprehensive Test on IndoMMLU

    Full text link
    Although large language models (LLMs) are often pre-trained on large-scale multilingual texts, their reasoning abilities and real-world knowledge are mainly evaluated based on English datasets. Assessing LLM capabilities beyond English is increasingly vital but hindered due to the lack of suitable datasets. In this work, we introduce IndoMMLU, the first multi-task language understanding benchmark for Indonesian culture and languages, which consists of questions from primary school to university entrance exams in Indonesia. By employing professional teachers, we obtain 14,981 questions across 64 tasks and education levels, with 46% of the questions focusing on assessing proficiency in the Indonesian language and knowledge of nine local languages and cultures in Indonesia. Our empirical evaluations show that GPT-3.5 only manages to pass the Indonesian primary school level, with limited knowledge of local Indonesian languages and culture. Other smaller models such as BLOOMZ and Falcon perform at even lower levels.Comment: Accepted at EMNLP 202

    Bactrian-X : A Multilingual Replicable Instruction-Following Model with Low-Rank Adaptation

    Full text link
    Instruction tuning has shown great promise in the field of natural language processing. However, the research on multilingual instruction tuning has been limited due to the scarcity of high-quality instruction-response datasets. To address this gap, we present Bactrian-X, a comprehensive multilingual parallel dataset of 3.4 million instruction-response pairs across 52 languages. Leveraging this dataset, we train a set of adapters using low-rank adaptation (LoRA), which are lightweight components seamlessly integrated with foundational models. These adapters have a significantly smaller parameter count than the base model, making them easily replaceable and usable as plug-ins for different languages or language groups. Through extensive experiments on 52 languages, we demonstrate the superior performance of our models in various multilingual evaluation settings. Our proposed models outperform both the vanilla models and the existing instruction-tuned models. The code and models are publicly available at https://github.com/mbzuai-nlp/bactrian-x

    NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages

    Full text link
    Democratizing access to natural language processing (NLP) technology is crucial, especially for underrepresented and extremely low-resource languages. Previous research has focused on developing labeled and unlabeled corpora for these languages through online scraping and document translation. While these methods have proven effective and cost-efficient, we have identified limitations in the resulting corpora, including a lack of lexical diversity and cultural relevance to local communities. To address this gap, we conduct a case study on Indonesian local languages. We compare the effectiveness of online scraping, human translation, and paragraph writing by native speakers in constructing datasets. Our findings demonstrate that datasets generated through paragraph writing by native speakers exhibit superior quality in terms of lexical diversity and cultural content. In addition, we present the \datasetname{} benchmark, encompassing 12 underrepresented and extremely low-resource languages spoken by millions of individuals in Indonesia. Our empirical experiment results using existing multilingual large language models conclude the need to extend these models to more underrepresented languages. We release the NusaWrites dataset at https://github.com/IndoNLP/nusa-writes

    KESERASIAN SOSIAL DAN POLITIK DALAM MASYARAKAT “BERBILANG KAUM” DI KOTA SIBOLGA

    Get PDF
    Tujuan penelitian ini untuk melihat sejauh mana implementasi konstruksi keragaman masyarakat Indonesia di Kota Sibolga yang dikenal sebagai “Negeri Berbilang Kaum”.Metode yang digunakan dalam penelitian ini adalah jenis penelitian deskriptif dengan pendekatan kualitatif. Hasil penelitian menunjukkan, bahasa pesisir sebagai bahasa pemersatu diantara etnis yang berbeda, sehingga keberadaan bahasa pesisir tersebut dapat mendukung terciptanya masyarakat yang serasi dan rukun. Kondisi keserasian sosial ini juga terlihat dari adanya Adat Sumando sebagai adat pemersatu dalam setiap perkawinan yang dilakukan. Adat Sumando adalah pertambahan atau percampuran satu keluarga dengan keluarga lain yang seagama, yang diikat dengan tali pernikahan menurut hukum Islam dan disahkan dengan suatu acara adat Pesisir. Adat ini merupakan campuran dari hukum Islam, adat Minangkabau, dan adat Batak. Keberadaan Adat Sumando inilah yang membuat kota ini menjadi lebih unik, dimana ketika etnis Batak yang sudah masuk ke dalam Adat Sumando yang notabene beragama Islam, maka marga yang ada tetap dipakai. Hal inilah membuat masyarakat yang bermarga Batak tetapi beretnis Pesisir. Dari hasil penelitian ini juga menunjukan bahwa ada beberapa faktor pendukung terciptanya keserasian sosial dalam masyarakat multi etnis di Kota Sibolga sebagai berikut: Pertama; faktor historis, dimana sejak berdirinya kota ini telah ramai di kunjungi oleh pendatang dari berbagai daerah dan beragam etnis yang terjalin dalam interaksi sosial yang harmonis sehingga menjadikan kota ini sebagai kota yang dinamis dan terbuka serta menjadi kota yang mapan dalam mengelola masyarakat yang harmonis dalam keberagaman (harmony in diversity). Kedua; faktor adaptasi, dimana kemampuan masyarakat yang tinggal di kota ini dalam menguasai bahasa Pesisir dalam berinteraksi sehari-hari, sehingga kemampuan adaptif inilah yang membuat masyarakat hidup serasi dan rukun. Ketiga; faktor demografi dan pola pemukiman, dimana dengan kepadatan penduduk yang cukup tinggi di kota ini mengakibatkan pola pemukiman membaur yang cenderung meniadakan garis pemisah (border line) atau mereduksi komunikasi yang terbatas, sehingga dapat meningkatkan interaksi dan kontak sosial yang semakin intens
    corecore